@烟雨
2年前 提问
1个回答

大数据数据挖掘技术有哪些

X0_0X
2年前

大数据数据挖掘技术有以下这些:

  • 决策树学习技术:决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每个节点说明了对实例的某个属性的测试,该节点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从树的根节点开始,测试这个节点指定的属性,然后按照给定实例的属性值向下移动。决策树方法主要用于数据挖掘的分类方面。

  • 分类技术:分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。

  • 聚类分析技术:聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使属于同一类别数据间的相似性尽可能大,不同类别数据间的相似性尽可能小。聚类分析的技术关键除了算法的选择之外,就是对样本度量标准的选择。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

  • 粗糙集技术:粗糙集是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的值分成相应的子集,然后对条件属性划分的子集与结论,划分子集之间上下近似关系,生成判定规则。粗糙集理论可以应用于数据挖掘中的分类,发现不准确数据或噪声数据内在的结构联系。

  • 回归分析技术:回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相互关系等。

  • 关联规则技术:关联规则是描述数据库中数据项之间所存在关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。

  • 特征分析技术:特征分析是从数据库的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。

  • 神经网络技术:神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。

  • 遗传算法技术:遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前已知的最好假设来生成后续的假设。通过使用目前适应性最高假设的后代替代群体的某个部分,更新当前群体的一组假设,来实现各个个体适应性的提高。在数据挖掘中,可以被用作评估其他算法的适合度。